智能论文笔记

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Yingzhi Wang , Abdelmoumene Boumadane , Abdelwahab Heba

分类：自然语言处理 | 神经与进化计算

2021-11-04

自我监督的语音表示，如Wav2Vec 2.0和Hubert正在自动语音识别（ASR）中进行革命性进展。但是，未经监督模型没有完全证明在ASR以外的任务中产生更好的性能。在这项工作中，我们探索了Wav2Vec 2.0和Hubert预先训练模型的部分微调和整个微调，适用于三个非ASR语音任务：语音情感识别，发言者验证和口语理解。我们还比较带有/没有ASR微调的预训练型号。通过简单的下游框架，最佳分数对IEMocap上的语音情感识别的加权精度达到79.58％，扬声器验证对voxcereB1的2.36％，意图分类的准确性为87.51％，Slotp的槽填充的75.32％f1，因此为这三个基准设置新的最先进，证明了微调Wave2VEC 2.0和Hubert模型可以更好地学习韵律，语音印刷和语义表示。

translated by 谷歌翻译